Редки думи
Опция "Редки
думи" активира оцветяване на думите в различни цветове според честотата
на
срещането им. Идеята е редките думи да се
откроят визуално, за да може да проверите дали не са
потенциални грешки. За да активирате оцветяването на редките
думи, първо изключете
опцията "Оцветявай", за
да изключите оцветяването на непознатите думи, след което включете опцията
"Редки думи", за да
включите оцветяването на редките думи и накрая
натиснете бутона "Refresh".
После проверете новооцветените думи за грешки
(особено оранжевите и светлосините).
На всяка една българска дума
е присвоено число от 0 до 4999, наречено "разпределение",
показващо дали думата и популярна или
рядка. Представете си библиотека, в която има 5000 романа. "Разпределението"
на една дума показва в колко от тези романа е най-вероятно да срещнем тази дума.
Най-честите 94 български думи (на,
и, да, се,
в, от, не, е, за, си…) бихме срещнали във
всичките 5000 романа. Те имат разпределение 0. Няколко думи бихме срещнали в
4999 романа и ще липсват само в един. Те имат разпределение 1. Продължаваме така
до разпределение 4999, което означава, че думата
се среща само в един роман и липсва в
останалите 4999. Липса на
разпределение (оранжев цвят) означава, че думата не се среща в нито
един от 5000-те романа, но въпреки
това е валидна българска дума.
Думи с разпределение по-голямо от 4995,
т.е. срещащи се в по-малко от 5 романа, се считат за редки
и потенциално грешни и се оцветяват по следния начин:
цвят8 (оранжев) — свръхредки, които не
се срещат нито веднъж в изследвания български корпус, и затова нямат
разпределение.
цвят5 (светлосин) — разпределение 4999
цвят4 (син) — разпределение 4998
цвят3 (тъмносин) — разпределение 4997
цвят2 (мръснозелен)
— разпределение 4996
цвят1 (тъмнозелен) — от зададения
долен праг до разпределение
4995. Долният праг се задава в опциите. Прагът може да е от 0
(оцветява всичко) до 5000 (оцветява
само свръхредките думи в оранжево)
Цветове
6 и 7 не се използват при
оцветяване на български текстове, а само на английски (виж
по-долу).
За да се определи
разпределението на всяка българска дума е изследван български текстов корпус,
съдържащ 274'696'389 думи (1.58GB). Този корпус
от десетки хиляди отделни текстове (романи,
статии и пр.) се разглежда като един непрекъснат текст,
който се разделя линейно
със специална програма на 5000 части,
съдържащи точно по 54940 думи (~330K)
или всяка част е колкото средно дебел роман.
След това се извършва броене на словоформите.
Една дума може да се срещне 10 пъти в един-единствен роман и
нито веднъж в останалите 4999. Тоест абсолютният брой на срещанията на думата в
целия корпус, в случая 10, е нещо съвсем различно от разпределението на думата,
което показва единствено в колко романа се среща думата. За нашите цели приемаме, че дума,
която се среща по един път в 3 различни романа, е по-популярна от дума, която се
среща десет пъти в един-единствен роман и не се среща в нито един от другите
4999 романа. Тоест, за определяне популярността на дадена дума водещо е
разпределението й (хомогенността на срещането й в корпуса),
а не абсолютният брой на срещанията.
---------------------------------------------------------------------------
Английските словоформи имат т.н. ранг, в
основата на който също е разпределението. Колкото по-често срещана е
думата, толкова рангът е по-малък. Например пълният член
the е най-често срещаната английска дума и затова
има ранг 1. Думата smile има ранг 1353, означаващо,
че 1352 думи са по-често срещани от нея. Думата
arbitrament е с ранг 72944,
означаващо, че е доста рядка. Думата
arboriculturist е с ранг 114084,
което значи, че е изключително рядка.
Опцията "Редки
думи" оцветява английските
думи в зависимост от ранга и за разлика от използването й при български текст,
тук тя не служи за откриване на потенциални правописни грешки, а за улесняване
на изучаващите английски език към кои думи да насочат вниманието си в зависимост
от това на какво ниво на владеене на езика са в момента. Това няма отношение към спелчекъра, но съществува като функционалност.
Най-честите 8'000 английски думи,
с ранг от 0 до 8'000, не се оцветяват. По-редките
английските думи с ранг над 8'000 се оцветяват в следните осем цвята:
цвят1 (тъмнозелен) — ранг от 8'000 до
18'004
цвят2 (мръснозелен) — ранг от 18'005
до 28'007
цвят3 (тъмносин) — ранг от 28'008 до
40'419
цвят4 (син) — ранг от 40'420 до 57'842
цвят5 (светлосин) — ранг от 57'843 до
78'723
цвят6 (виолетов) — ранг от 78'724 до 97'242
цвят7 (бледокафяв) — ранг от 97'243 до
122'085
цвят8 (оранжев) — без ранг.
Това са останалите към 31'000 свръхредки думи
от общо 153'143, които към момента са в
английския словоформен списък (също проект на
IDI). Те не се срещат нито веднъж в изследвания
английски корпус и затова нямат ранг.